#ataques backdoor

De diagnóstico interno a auditoría externa: defensa contra backdoors con VLM

Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.

2026-06-03 · 2 min

Ataques backdoor generalizables en RLHF con triggers emocionales

Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.

2026-06-02 · 2 min